Perfilamiento de clientes que están dispuestos a adquirir una cuenta de ahorro en una institución bancaria

Autores/as

José Daniel Grayson Tejada (líder)

Fali Ferdinand Araoz Arana

Leisy Valeska Bendezu Choque

Daniela Landavery Vergaray

Vincenzo Francisco Magnani Castro

1 Introducción

1.1 Relevancia

El marketing es una disciplina fundamental para las empresas, ya que permite atraer clientes y promover productos o servicios de manera estratégica. A través de diversas herramientas y canales, las organizaciones buscan optimizar sus esfuerzos para lograr una mayor eficiencia en sus campañas.

En el caso de una institución bancaria, gran parte del marketing se realiza mediante llamadas telefónicas para ofrecer productos financieros como cuentas de ahorro. Para mejorar la eficiencia de estas campañas, el perfilamiento de clientes resulta clave. Mediante la segmentación basada en características financieras y demográficas, se pueden identificar los clientes con mayor probabilidad de aceptar la oferta. Esto permite reducir el número de llamadas innecesarias y mejorar los resultados de la estrategia de marketing. Este proyecto se basa en el análisis de datos de una campaña telefónica de un banco para optimizar el proceso de captación de clientes interesados en abrir una cuenta de ahorro.

1.2 Planificación

Las fechas que indica el eje horizontal del diagrama son todas del año 2025, pero ello se omite para mayor claridad en las etiquetas.

gantt
  title Planificación del proyecto
  dateFormat DD-MM-YYYY
  axisFormat %d-%m
  todayMarker off
  section Avance 1
    (Daniela) Definición de objetivos                               :done,    2025-01-9,  2d
    (José) Transformación de datos                                  :done,    2025-01-11, 1d
    (Fali y José) Tratamiento de datos faltantes                    :done,                3d
    (Todos) Revisión final                                          :done,    2025-01-15, 1d
  section Avance 2
    (Leisy y Vincenzo) Organización de datos                        :done,    2025-01-18, 3d
    (Vincenzo) Análisis descriptivo (objetivo 1)                    :done,    2025-01-19, 3d
    (José) Análisis descriptivo (objetivo 2)                        :done,    2025-01-19, 3d
    (Leisy) Análisis descriptivo (objetivo 3)                       :done,    2025-01-20, 2d
    (Daniela) Análisis descriptivo (objetivo 4)                     :done,    2025-01-20, 2d
    (Fali) Análisis descriptivo (objetivo 5)                        :done,    2025-01-21, 3d
    (Todos) Revisión final                                          :done,    2025-01-23, 2d
  section Informe
    (Fali) Introducción (relevancia)                                :done,    2025-01-28, 2d
    (Daniela) Datos (población objetivo)                            :done,    2025-01-29, 1d
    (José) Datos (tipo de muestreo)                                 :done,    2025-01-29, 1d
    (Fali y Daniela) Datos (tratamiento de datos)                   :done,    2025-01-29, 2d
    (José) Datos (variables, limpieza)                              :done,    2025-01-30, 4d
    (Vincenzo y José) Análisis descriptivo (organización de datos)  :done,    2025-01-31, 2d
    (Leisy) Análisis descriptivo (medidas de resumen)               :done,    2025-01-31, 3d
    (José y Daniela) Conclusiones                                   :done,    2025-02-03, 2d
    (Todos) Revisión final                                          :done     2025-02-05, 1d

1.3 Objetivos

1.3.1 Objetivo general

El objetivo principal de este proyecto es conocer los factores que influyen en la aceptación de una cuenta de ahorro vía telefónica para los clientes de una entidad bancaria a través de la identificación de patrones usando el análisis estadístico.

1.3.2 Objetivos específicos

Dentro del marco del objetivo general, nuestro grupo considera los siguientes objetivos específicos:

  1. Analizar la relación entre el estado financiero de un cliente (balance, mora) y su predisposición a aceptar una cuenta de ahorro.
  2. Identificar el impacto de las características demográficas (edad, estciv) en la decisión de adquirir una cuenta de ahorro.
  3. Identificar un posible patrón en el nivel de educación (educacion) de las personas que aceptan abrir una cuenta de ahorro.
  4. Evaluar el efecto de las variables relacionadas con la interacción con el cliente (campana) en la decisión de adquirir una cuenta de ahorro.
  5. Identificar el tiempo posterior promedio de la última llamada a los clientes (pdias) antes de aceptar abrir una cuenta de ahorro.

Cabe destacar que en todos estos objetivos se hace presente la variable adq_ahorro como la variable dependiente a analizar.

2 Datos

2.1 Población objetivo

Acorde con el enlace provisto en la referencia del documento informativo sobre los datos, la población objetivo de este proyecto son los clientes del banco “RICARDO PALMA BANK”.

2.2 Tipo de muestreo

Dado que los datos con los que trabajamos en este proyecto fueron provistos por los docentes del curso y no hay suficiente información sobre su origen, no se puede determinar con certeza el tipo de muestreo utilizado para recolectarlos. Sin embargo, algunos tipos de muestreo que se podría haber utilizado son los siguientes:

  • Muestreo por juicio: Es posible que el banco y el área de marketing hayan escogido la muestra según un criterio a experiencia.
  • Muestreo sistemático: De forma similar al anterior, es posible que el banco haya escogido clientes de una base de datos a partir de cierto punto inicial y con algún intervalo entre clientes elegidos.

2.3 Tratamiento de datos

En esta sección mostraremos el estado actual de los datos, lo que falta arreglar y cómo lo arreglaremos en la Sección 2.5.

df <- suppressMessages(read_csv("AdquisicionAhorro.csv"))
df
# A tibble: 2,240 × 14
   coddoc   edad estciv educacion mora  balance vivienda prestamo   dia duracion
   <chr>   <dbl> <chr>  <chr>     <chr> <chr>   <chr>    <chr>    <dbl>    <dbl>
 1 CODDOC…    30 marri… primaria  no    1787.52 no       no          19       79
 2 CODDOC…    33 marri… secundar… no    4789.70 si       si          11      220
 3 CODDOC…    35 single terciario no    1350.72 si       no          16      185
 4 CODDOC…    30 marri… terciario no    1476.23 si       si           3      199
 5 CODDOC…    35 single terciario no    747.14  no       no          23      141
 6 CODDOC…    41 marri… terciario no    221.16  si       no          14       57
 7 CODDOC…    43 marri… primaria  no    88.20   si       si          17      313
 8 CODDOC…    39 marri… secundar… no    9374.6  si       no          20      273
 9 CODDOC…    31 marri… secundar… no    360.5   si       si          29       89
10 CODDOC…    25 single primaria  no    221.8   si       no          23      250
# ℹ 2,230 more rows
# ℹ 4 more variables: campana <dbl>, pdias <dbl>, previo <dbl>,
#   Adq_Ahorro <dbl>

En total, la tabla tiene 14 columnas (es decir, variables) y 2240 filas (es decir, observaciones).

Podemos notar que la variable balance, en lugar de ser teóricamente numérica, es de tipo “texto”. Esto significa que contiene al menos un dato que no se puede convertir a un número. Arreglaremos esto con as.numeric, forzando convertir la columna a números y dejando aquellos valores no numéricos como NA.

Podemos observar también los datos faltantes por columna:

colSums(is.na(df))
    coddoc       edad     estciv  educacion       mora    balance   vivienda 
         0         10         12         18          9         85         16 
  prestamo        dia   duracion    campana      pdias     previo Adq_Ahorro 
         9          5         12         11          1          1          0 

En total, esto constituye 189 datos faltantes, lo cual es aproximadamente un 1% del total de 31360 datos presentes en la tabla. En términos de observaciones, los datos contienen 168 observaciones con algún dato faltante, lo cual es un 8% del total. Además, la columna educacion contiene 105 datos de tipo "desconocido". Este valor, en la práctica, es equivalente a un dato faltante (NA), así que también será tratado con el resto de datos faltantes.

Los datos faltantes, en su mayoría, serán tratados mediante imputación de datos. Usaremos la moda para las variables categóricas y media o mediana para las numéricas (según el criterio del coeficiente de variación). Sin embargo, para la columna pdias, optamos por eliminar las observaciones donde esta variable sea NA. Tomamos esta decisión porque esta variable no sólo contiene números, sino valores “nulos” encodificados como -1, por lo que la media o mediana podrían no ser representativas. De todas maneras, pdias solo tiene un dato faltantes, así que esta decisión no causa mayor problema.

En el caso de adq_ahorro, si tuviese datos faltantes (porque no los tiene), optaríamos también por eliminar sus observaciones correspondientes. Este es un caso especial, porque adq_ahorro es la variable dependiente del análisis, así que no sería prudente imputar en dicha variable.

En tercer lugar, como veremos más adelante, esta tabla no contiene datos fuera de los rangos apropiados para cada variable. Sin embargo, de no haber sido así, optaríamos por reemplazar dichos datos por NA y tratarlos junto al resto de datos faltantes.

2.4 Variables

De acuerdo a los objetivos específicos de este informe (véase Sección 1.3.2), las variables que consideraremos para este análisis son las siguientes:

Tabla 1: Variables a utilizar en el proyecto
Variable Tipo Descripción Restricciones
Edad (edad) cuantitativa discreta La edad del encuestado. Mayor o igual a \(18\).
Estado civil (estciv) cualitativa nominal El estado civil del encuestado. Uno de "married "single", "divorced".
Educación (educacion) cualitativa ordinal El nivel educativo con el que cuenta el encuestado. Uno de "primaria", "secundaria", "terciario".
Mora (mora) cualitativa nominal, dicotómica Indica si el encuestado posee crédito en mora. Uno de "si", "no".
Balance (balance) cuantitativa continua El balance promedio anual en euros del encuestado. Mayor o igual a \(0\).
Campaña (campana) cuantitativa discreta El número de contactos realizados con el encuestado durante la presente campaña, incluyendo el último contacto. Mayor a \(0\).
PDias (pdias) cuantitativa discreta Número de días transcurridos desde el último contacto con el encuestado (o -1 en caso no haya sido contactado previamente). Mayor a \(0\) o igual a \(-1\).
Adquisición de cuenta de ahorro (adq_ahorro) cualitativa nominal, dicotómica Indica si el encuestado suscribió un depósito a plazo (es decir, si adquirió la cuenta de ahorro). Igual a \(0\) o a \(1\).
Nota

Algunos detalles relevantes:

  1. Clasificamos a adq_ahorro como cualitativa (y dicotómica) porque es esencialmente un sí/no codificado como 1/0.
  2. Establecemos un límite inferior de 18 años para edad porque es la edad mínima para abrir una cuenta de banco.

2.5 Limpieza

Las siguientes funciones nos serán útiles a lo largo de lo que resta del documento.

# Redondea un número a 2 decimales
r <- function(x) {
  return(round(x, digits = 2))
}

# Calcula el coeficiente de variación de `x`
cv <- function(x, na.rm = FALSE) {
  return(sd(x, na.rm = na.rm) / mean(x, na.rm = na.rm))
}

2.5.1 Transformación de datos

Renombraremos la última columna de df para tener consistencia entre los nombres de todas las columnas:

if ("Adq_Ahorro" %in% colnames(df)) {
  df <- df %>% rename(adq_ahorro = Adq_Ahorro)
}
2.5.1.1 Eliminación de variables innecesarias

Acorde con los objetivos establecidos, conservaremos únicamente las variables mencionadas en la Sección 2.4.

df <- df %>% select(edad, estciv, educacion, mora, balance, campana, pdias, adq_ahorro)
2.5.1.2 Arreglo del tipo de balance

Usaremos la función as.numeric para convertir a la fuerza los datos de balance a números. Los que no se puedan convertir correctamente se convertirán en NA.

df <- df %>% mutate(balance = as.numeric(balance))
Warning: There was 1 warning in `mutate()`.
ℹ In argument: `balance = as.numeric(balance)`.
Caused by warning:
! NAs introduced by coercion

2.5.2 Tratamiento de datos faltantes

2.5.2.1 Imputación de datos

Para las variables categóricas, imputaremos como reemplazo a los datos faltantes la moda de los datos existentes.

df <- df %>% mutate(
  estciv = replace_na(estciv, mfv(estciv)),
  educacion = replace(educacion, is.na(educacion) | educacion == "desconocido", mfv(educacion)),
  mora = replace_na(mora, mfv(mora))
)
Nota

Nótese que en la columna educacion imputamos también sobre las celdas que contienen "desconocido", como se mencionó en la Sección 2.3.

Para las variables numéricas, consideramos dos métodos de imputación: la media y la mediana. La selección de la medida a usar para imputar los datos faltantes se hará según el coeficiente de variación.

apply(df %>% select(edad, balance, campana), 2, function(x) cv(x, na.rm = TRUE))
     edad   balance   campana 
0.2550237 2.0823344 1.1321646 

El criterio que usaremos es el siguiente:

  • Si \(\text{CV} < 30\%\), entonces se imputará la media, ya que los datos son homogéneos.
  • Si \(\text{CV} \geq 30\%\), entonces se imputará la mediana, ya que los datos se inclinan más hacia ser heterogéneos.

Además, si la variable imputada debe ser discreta, el valor de reemplazo se redondea al entero más cercano.

df <- df %>% mutate(
  edad = replace_na(edad, round(mean(edad, na.rm = TRUE))),           # CV = 0.26: media redondeada
  balance = replace_na(balance, median(balance, na.rm = TRUE)),       # CV = 2.08: mediana
  campana = replace_na(campana, round(median(campana, na.rm = TRUE))) # CV = 1.13: mediana redondeada
)
2.5.2.2 Eliminación de observaciones

Como mencionamos en la Sección 2.3, se eliminarán las observaciones donde pdias tenga valor faltante. Como en este caso solo es una observación, no causa problemas.

df <- df %>% filter(!is.na(pdias))

2.5.3 Comprobaciones finales

2.5.3.1 Búsqueda de datos atípicos

Para las variables numéricas, es prudente comprobar que la data no salga de rangos realistas (no debería haber alguna edad, por ejemplo, de 200 años).

summary(df %>% select(edad, balance, campana, pdias))
      edad          balance           campana           pdias      
 Min.   :19.00   Min.   :    0.0   Min.   : 1.000   Min.   : -1.0  
 1st Qu.:33.00   1st Qu.:  133.2   1st Qu.: 1.000   1st Qu.: -1.0  
 Median :40.00   Median :  476.8   Median : 2.000   Median : -1.0  
 Mean   :41.24   Mean   : 1496.3   Mean   : 2.833   Mean   : 37.5  
 3rd Qu.:48.00   3rd Qu.: 1492.5   3rd Qu.: 3.000   3rd Qu.: -1.0  
 Max.   :86.00   Max.   :71188.0   Max.   :50.000   Max.   :808.0  

La columna edad presenta un rango aceptable: de 19 a 86 años.

La columna balance, por su máximo, podría levantar sospechas. Sin embargo, un diagrama de caja ayuda a visualizar que la mayoría de datos se encuentran alrededor de la mediana de 40 euros.

Figura 1: Balance promedio anual de los encuestados

El valor máximo de balance es un valor atípico pero posible, por lo que debe ser conservado.

La columna campana también podría levantar sospechas, pero su diagrama de caja nos facilita una conclusión similar a la anterior:

Figura 2: Número de contactos realizados durante la campaña

El máximo de campana, aunque es comparablemente alto al resto, es posible en la vida real.

Finalmente, conviene para una comprobación de pdias obviar los valores -1, de forma que analicemos solamente sus valores no-nulos.

summary(df$pdias[df$pdias != -1])
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1     131     183     214     298     808 

Ocurre un caso similar a los anteriores.

Figura 3: Días desde el último contacto al cliente

La mayoría de los datos de pdias se encuentran alrededor de la mediana, 183, mientras que los más altos son pocos y, en cualquier caso, posibles en la vida real.

2.5.3.2 Consistencia de las variables categóricas

Finalmente, es preciso comprobar que las variables categóricas tengan valores consistentes. Por ejemplo, la columna estciv no debería contener valores como, por ejemplo, "Married" o "SINGLE".

Para esto, podemos calcular los valores únicos de cada variable categórica:

apply(df %>% select(estciv, educacion, mora, adq_ahorro), 2, unique)
$estciv
[1] "married"  "single"   "divorced"

$educacion
[1] "primaria"   "secundaria" "terciario" 

$mora
[1] "no" "si"

$adq_ahorro
[1] "0" "1"

Podemos comprobar que las variables categóricas tienen valores consistentes.

2.5.4 Resultado final

Mostramos a continuación un vistazo al resultado de la base de datos tras la limpieza:

summary(df)
      edad          estciv           educacion             mora          
 Min.   :19.00   Length:2239        Length:2239        Length:2239       
 1st Qu.:33.00   Class :character   Class :character   Class :character  
 Median :40.00   Mode  :character   Mode  :character   Mode  :character  
 Mean   :41.24                                                           
 3rd Qu.:48.00                                                           
 Max.   :86.00                                                           
    balance           campana           pdias         adq_ahorro    
 Min.   :    0.0   Min.   : 1.000   Min.   : -1.0   Min.   :0.0000  
 1st Qu.:  133.2   1st Qu.: 1.000   1st Qu.: -1.0   1st Qu.:1.0000  
 Median :  476.8   Median : 2.000   Median : -1.0   Median :1.0000  
 Mean   : 1496.3   Mean   : 2.833   Mean   : 37.5   Mean   :0.8361  
 3rd Qu.: 1492.5   3rd Qu.: 3.000   3rd Qu.: -1.0   3rd Qu.:1.0000  
 Max.   :71188.0   Max.   :50.000   Max.   :808.0   Max.   :1.0000  
df
# A tibble: 2,239 × 8
    edad estciv  educacion  mora  balance campana pdias adq_ahorro
   <dbl> <chr>   <chr>      <chr>   <dbl>   <dbl> <dbl>      <dbl>
 1    30 married primaria   no     1788.        1    -1          0
 2    33 married secundaria no     4790.        1   339          0
 3    35 single  terciario  no     1351.        1   330          0
 4    30 married terciario  no     1476.        4    -1          0
 5    35 single  terciario  no      747.        2   176          1
 6    41 married terciario  no      221.        2    -1          1
 7    43 married primaria   no       88.2       1   147          1
 8    39 married secundaria no     9375.        1    -1          1
 9    31 married secundaria no      360.        1   241          1
10    25 single  primaria   no      222.        1    -1          1
# ℹ 2,229 more rows

Además, podemos comprobar que está libre de datos faltantes:

colSums(is.na(df))
      edad     estciv  educacion       mora    balance    campana      pdias 
         0          0          0          0          0          0          0 
adq_ahorro 
         0 

3 Análisis descriptivo

Utilizaremos la siguiente función para algunos gráficos donde queramos observar una cierta porción de los datos alrededor de la mediana.

filter_outliers <- function(x, factor = 1.5) {
  iqr = IQR(x)
  lower_bound = quantile(x, 0.25, type = 3) - factor * iqr
  upper_bound = quantile(x, 0.75, type = 3) + factor * iqr
  return(x[x >= lower_bound & x < upper_bound])
}

3.1 Organización de datos

Se presentan aquí, por objetivo, las gráficos que serán referenciados en el análisis de medidas de resumen (véase Sección 3.2).

3.1.1 Objetivo 1

Figura 4: Balance por adquisición de cuenta
Figura 5: Porcentaje de adquisición por mora

3.1.2 Objetivo 2

Figura 6: Edad por adquisición de cuenta de ahorro
Tabla 2: Medidas de resumen de edad por adquisición de cuenta
adq_ahorro min q1 mediana media q3 max rango cv sd
0 21 33 39 41.16 33 77 56 0.26 10.51
1 19 33 40 41.25 33 86 67 0.25 10.50
Figura 7: Estado civil por adquisición de cuenta
Figura 8: Edad por estado civil

3.1.3 Objetivo 3

Figura 9: Adquisición de cuenta por nivel educativo

3.1.4 Objetivo 4

Figura 10: Número de contactos previos por adquisición de cuenta
Nota

Aunque las cajas de este gráfico salen aplanadas debido al rango que abarcan los datos atípicos, escogimos este gráfico precisamente para mostrar dichos datos atípicos (más que para mostrar los quartiles).

Tabla 3: Medidas de resumen de campaña por adquisición de cuenta
adq_ahorro media mediana moda cv max min rango sd
0 2.80 2 1 0.95 21 1 20 2.65
1 2.84 2 1 1.16 50 1 49 3.30
Figura 11: Contactos previos en la campaña (sin atípicos)

3.1.5 Objetivo 5

Figura 12: Días desde último contacto por adquisición de cuenta
df_aux_2 <- df %>% filter(pdias == -1)
pdias_table <- table(df_aux_2$adq_ahorro)

colors <- c("hotpink", "lightblue3")
labels <- paste0(r(100 * pdias_table / sum(pdias_table)), "%")

pie(
  pdias_table,
  main = "Adquisición de cuenta (clientes no contactados previamente)",
  labels = labels,
  col = colors
)
legend("topleft", legend = c("No adquirió", "Sí adquirió"), fill = colors)
Figura 13: Adquisición de cuenta (clientes no contactados previamente)

3.2 Medidas de resumen

3.2.1 Análisis univariado

Para este proyecto, el análisis univariado no es de mucha utilidad más allá de ofrecer vistazos generales a cada variable, lo cual no aporta a nuestros objetivos. Sin embargo, el objetivo 4 (el cual será mejor profundizado en la Sección 3.2.2.4), hace uso de uno de estos gráficos.

Con respecto a la variable campana, de la Figura 11 (de la cual se excluyen los datos atípicos por claridad) se puede observar que la mayoría de los encuestados aceptaron o rechazaron la apertura de la cuenta de ahorro en el primer contacto, dado que la moda de esta variable es 1. Este resultado sugiere la relevancia de la primera impresión que el banco genera en sus clientes.

Consideramos a la moda como la medida mejor representativa de esta variable para este análisis debido a la conclusión mencionada anteriormente. El resto medidas de esta variable serán analizadas de forma bivariada en la sección de su objetivo correspondiente, ya que, salvo el análisis anterior, analizarla de forma univariada no contribuye a nuestros objetivos.

3.2.2 Análisis bivariado

3.2.2.1 Objetivo 1

Analizar la relación entre el estado financiero de un cliente (balance, mora) y su predisposición a aceptar una cuenta de ahorro.

Para el análisis de balance y mora, es fundamental realizar comparaciones detalladas entre las variables que nos interesan, especialmente en relación con la variable relacionada a la adquisición de la cuenta de ahorro. Con respecto a balance, al analizar la Figura 4 se puede apreciar que el primer cuartil y la mediana se mantienen bastante similares entre aquellos que han adquirido la cuenta de ahorro y aquellos que no lo han hecho.

Sin embargo, al observar el tercer cuartil, se nota que este valor es visiblemente mayor en el grupo de personas que sí adquirieron la cuenta de ahorro, lo que indica una mayor concentración de valores altos en esta categoría. Además, la desviación estándar es considerablemente mayor en el grupo que posee la cuenta, lo que implica una mayor dispersión de los datos y, por lo tanto, una mayor heterogeneidad en los balances registrados. Este fenómeno puede ser indicativo de comportamientos financieros más variados entre los clientes que optan por esta modalidad.

Con respecto a mora, es importante señalar que solo una pequeña minoría de los encuestados (específicamente, el 1%) presenta mora. No obstante, esta baja frecuencia no descarta que la mora pueda ser un factor importante al momento de estudiar la relación entre la salud financiera y la adopción de la cuenta de ahorro.

En este sentido, la figura Figura 5 revela que existe una proporción ligeramente mayor de personas que aceptan la cuenta de ahorro cuando presentan mora. Sin embargo, es posible que no sea apropiado tomar esta conclusión con mucha seguridad, ya que la muestra de encuestados con mora es extremadamente pequeña y podría no ser representativa de la población.

3.2.2.2 Objetivo 2

Identificar el impacto de las características demográficas (edad, estciv) en la decisión de adquirir una cuenta de ahorro.

En cuanto a edad, podemos analizar posibles diferencias entre las edades por adquisición de cuenta (véase Figura 6). En general, los cuartiles de las edades de los encuestados que adquirieron y no adquirieron la cuenta están relativamente cerca. Esta similitud se puede confirmar numéricamente mediante la Tabla 2, la cual muestra que la mediana y los cuartiles 1 y 3 son similares, si es que no exactamente iguales.

Sin embargo, una observación interesante de este gráfico es que la mayoría de encuestados con edades atípicas (por encima de los ~70 años) sí adquirieron la cuenta de ahorro. Esto podría significar que existe un patrón recurrente con los clientes de dichas edades.

En cuanto a esticv, nuevamente podemos realizar una comparación entre quienes adquirieron la cuenta de ahorro y quienes no lo hicieron (véase Figura 7). Sin embargo, parece que, a primera vista, no hay una diferencia significativa entre el estado civil de quienes adquirieron la cuenta de ahorro y quienes no. Pese a ello, podemos notar que, entre las personas que sí adquirieron la cuenta, hay ligeramente menos individuos casados (divorciados, en su lugar) en comparación a quienes no la adquirieron.

Finalmente, podemos realizar un análisis de las edades por estado civil. (véase Figura 8). Se puede observar de aquí que las personas solteras tienden a tener edades menores que las personas casadas o divorciadas, lo cual tiene sentido si consideramos que, intuitivamente, una persona mayor tiene más probabilidad de estar casada que una persona más joven. Además, se puede observar que la caja correspondiente a los individuos divorciados está muy ligeramente movida un poco más arriba que la de los individuos casados. No obstante, es una diferencia pequeña, así que bien podría ser producto de la aleatoriedad de los datos utilizados.

3.2.2.3 Objetivo 3

Identificar un posible patrón en el nivel de educación (educacion) de las personas que aceptan abrir una cuenta de ahorro.

Al igual que en los objetivos anteriores, podemos hacer una comparación entre el nivel educativo de los individuos que adquirieron la cuenta y los que no. Podemos observar de la Figura 9 que, a grandes rasgos, el nivel educativo de secundaria es el más propenso a adquirir cuentas de ahorro, aunque por un margen relativamente pequeño. En ese mismo sentido, es el nivel educativo de primaria el que menos adquisiciones de cuentas de ahorro tiene.

Sin embargo, es relevante notar que el nivel de educación terciario no sea el predominante en la adquisición de la cuenta, ya que, intuitivamente, una persona con educación superior debería estar informada de mejores prácticas de finanzas. Sin embargo, esto se podría explicar si consideráramos que estas personas podrían haber rechazado la cuenta por ya contar con una en otro banco.

Nota

Cabe destacar que el diagrama Figura 9 no se ve afectado por el hecho de que la mayoría de encuestados (específicamente, el 56%) tengan nivel educativo de secundaria, ya que observa a cada nivel educativo por separado independientemente del tamaño de su muestra particular.

3.2.2.4 Objetivo 4

Evaluar el efecto de las variables relacionadas con la interacción con el cliente (campana) en la decisión de adquirir una cuenta de ahorro.

Como se observa en la Figura 10 y en la Tabla 3, se realizó el siguiente análisis de los datos correspondientes al número de contactos realizados durante la campaña.

En primer lugar, al analizar la media y la mediana, se observa que estos valores son muy similares entre los dos grupos. Esto indica que, en promedio, el número de contactos realizados es prácticamente el mismo en ambos casos. Además, el hecho de que la mediana sea igual en ambos grupos sugiere que la distribución está centrada en torno a este valor.

En cuanto a la desviación estándar y el coeficiente de variación, los clientes que adquirieron la cuenta presentan un valor más alto, lo que indica una mayor dispersión en el número de contactos realizados.

Respecto al número máximo de contactos y el rango, se destaca que el valor máximo registrado es significativamente mayor para los clientes que adquirieron la cuenta (50 frente a 21). Esto sugiere que, en ciertos casos, un mayor número de intentos está asociado con la decisión de adquisición. Asimismo, el rango es más amplio para quienes adquirieron la cuenta (49 frente a 20), lo que reafirma la existencia de una mayor dispersión en este grupo.

Por último, el análisis de la moda revela que, en ambos grupos, el valor más frecuente es 1. Esto indica que la mayoría de los clientes fueron contactados solo una vez, lo que podría sugerir que la decisión de aceptar o rechazar una cuenta de ahorro ocurre principalmente en el primer contacto.

3.2.2.5 Objetivo 5

Identificar el tiempo posterior promedio de la última llamada a los clientes (pdias) antes de aceptar abrir una cuenta de ahorro.

Podemos observar en la Figura 12 que la media y los cuartiles 1 y 3 para los clientes que adquirieron y no adquirieron la cuenta son ligeramente similares respectivamente, aunque no mucho. En promedio, los clientes que aceptan la cuenta han sido contactados más recientemente que aquellos que no la aceptan. En el gráfico de los clientes que adquirieron una cuenta se aprecia que es más alargada en la parte inferior, indicando que hay más clientes con tiempos de contacto recientes antes de aceptar la cuenta.

Por estas razones, podría resultar útil analizar cómo fueron esos contactos telefónicos que quizá lograron persuadir de mejor manera a aquellos clientes para que en un corto plazo decidan adquirir una cuenta.

Aquellos que sí adquirieron la cuenta también presentan un rango más amplio comparado a los que no adquirieron, lo que implica una mayor dispersión de los datos. Asimismo, estos últimos presentan datos atípicos, llegando incluso hasta alrededor de los 800 días.

En la Figura 13, en la cual tomamos en cuenta solo a los clientes que no fueron contactados previamente, observamos una clara superioridad en cuando a la cantidad de personas que sí adquirieron una cuenta respecto a los que no lo hicieron. Muchas personas adquirieron pese a no haber sido contactadas. Esto sugiere que el contacto telefónico no es una estrategia de marketing fuerte o, por lo menos, no necesaria y que probablemente estos clientes se convencieron de adquirir una cuenta por otros medios que deberían ser promovidos más que el contacto telefónico.

4 Análisis probabilístico

4.1 Probabilidad empírica

4.1.1 Variable 1

La primera variable aleatoria que analizaremos será el nivel educativo (educacion), de tipo ordinal con posibles valores \(\text{primaria} < \text{secundaria} < \text{terciario}\), en ese orden. El análisis de probabilidades para esta variable puede ser de utilidad para caracterizar la demográfica a la que las campañas de marketing del banco deberían estar dirigidas.

El espacio muestral de esta variable es

\[ \Omega = \{ \text{primaria}, \text{secundaria}, \text{terciario} \} .\]

Esta variable corresponde al siguiente experimento:

Seleccionar una persona al azar del estudio “Perfilamiento de clientes que están dispuestos a adquirir una cuenta de ahorro en una institución bancaria” y observar su nivel educativo (educacion).

4.1.1.1 Eventos atómicos

Esta variable cuenta con los siguientes eventos atómicos:

  1. Primaria: Seleccionar un cliente al azar del estudio cuyo nivel educativo educación primaria.
  2. Secundaria: Seleccionar un cliente al azar del estudio cuyo nivel educativo sea secundaria.
  3. Terciario: Seleccionar un cliente al azar del estudio cuyo nivel educativo sea terciario.
4.1.1.2 Probabilidades

La tabla de frecuencias de educacion es la siguiente:

Tabla 4: Tabla de frecuencias de la variable educación
educacion Freq
primaria 331
secundaria 1247
terciario 661

En total, educacion tiene un tamaño efectivo de 2239. Por lo tanto, las probabilidades empíricas de cada evento atómico mencionado anteriormente son las siguientes:

\[ \begin{align} & P(\text{primaria}) = \frac{331}{2239} \approx 0.14 \\ & P(\text{secundaria}) = \frac{1247}{2239} \approx 0.56 \\ & P(\text{terciario}) = \frac{661}{2239} \approx 0.3 .\end{align} \]

Podemos comprobar que estas probabilidades son válidas, ya que su suma es \(1\):

\[ P(\text{primaria}) + P(\text{secundaria}) + P(\text{terciario}) = \frac{331}{2239} + \frac{1247}{2239} + \frac{661}{2239} = \frac{2239}{2239} = 1 .\]

4.1.2 Variable 2

La segunda variable aleatoria que analizaremos será el número de contactos durante la última campaña (bajo una clasificación categórica de campana). El análisis para esta variable es de interés porque podría revelar patrones de comportamiento en los clientes para entender cuántos contactos (y, por lo tanto, cuánto esfuerzo) son necesarios para obtener una respuesta del clienta.

Esta variable corresponde al siguiente experimento:

Seleccionar una persona al azar del estudio “Perfilamiento de clientes que están dispuestos a adquirir una cuenta de ahorro en una institución bancaria” y observar el número de contactos realizados a dicho cliente durante la última campaña.

Valores Categoría
\(1\) 1 contacto
\(2\) 2 contactos
\(3\) 3 contactos
\(4\) 4 contactos
\(5, 6, \ldots, 10\) De 5 a 10 contactos
\(11, 12, \ldots\) Más de 10 contactos

Por lo tanto, el espacio muestral de esta variable es

\[ \begin{align} \Omega = \{ & \text{1 contacto}, \\ & \text{2 contactos}, \\ & \text{3 contactos}, \\ & \text{4 contactos}, \\ & \text{De 5 a 10 contactos}, \\ & \text{Más de 10 contactos} \} .\end{align} \]

4.1.2.1 Eventos atómicos

Esta variable cuenta con los siguientes eventos atómicos:

  1. 1 contacto: Seleccionar un cliente al azar del estudio al que se haya contactado una vez durante la última campaña.
  2. 2 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado dos veces durante la última campaña.
  3. 3 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado tres veces durante la última campaña.
  4. 4 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado cuatro veces durante la última campaña.
  5. De 5 a 10 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado de 5 a 10 veces durante la última campaña.
  6. Más de 10 contactos: Seleccionar un cliente al azar del estudio al que se haya contactado más de 10 veces durante la última campaña.
4.1.2.2 Probabilidades

La tabla de frecuencias de esta clasificación de campana es la siguiente:

Tabla 5: Tabla de frecuencias del número de contactos durante la última campaña
campana Freq
1 contacto 869
2 contactos 612
3 contactos 263
4 contactos 170
De 5 a 10 contactos 258
Más de 10 contactos 67

En total, campana tiene un tamaño efectivo de 2239. Por lo tanto, las probabilidades empíricas de cada evento atómico mencionado anteriormente son las siguientes:

\[ \begin{align} & P(\text{1 contacto}) = \frac{869}{2239} \approx 0.39 \\ & P(\text{2 contactos}) = \frac{612}{2239} \approx 0.27 \\ & P(\text{3 contactos}) = \frac{263}{2239} \approx 0.12 \\ & P(\text{4 contactos}) = \frac{170}{2239} \approx 0.08 \\ & P(\text{De 5 a 10 contactos}) = \frac{258}{2239} \approx 0.12 \\ & P(\text{Más de 10 contactos}) = \frac{67}{2239} \approx 0.03 .\end{align} \]

Podemos comprobar que estas probabilidades son válidas, ya que su suma es \(1\):

\[ \begin{align*} P(\text{1 contacto}) + \ldots + P(\text{Más de 10 contactos}) = \frac{869}{2239} + \ldots + \frac{67}{2239} = \frac{2239}{2239} = 1 \end{align*} .\]

4.2 Probabilidad condicional

Para este análisis condicional escogemos las variables estado civil (estciv) y adquisición de cuenta de ahorro (adq_ahorro). Estas variables tienen los siguientes espacios muestrales:

  • Estado civil: \(\Omega = \{ \text{single}, \text{married}, \text{divorced} \}\).
  • Adquisición de cuenta de ahorro: \(\Omega = \{ 0, 1 \}\) (donde \(0\) corresponde a “no adquirir la cuenta” y \(1\) corresponde a “sí adquirir la cuenta”).

La tabla de contingencia entre estas dos variables se muestra a continuación:

Tabla 6: Tabla de contingencia de estado civil con adquisición de cuenta de ahorro
0 1 Sum
divorced 30 227 257
married 239 1157 1396
single 98 488 586
Sum 367 1872 2239

Los eventos que consideraremos son los siguientes:

  1. Evento 1 (\(E_1\)): Seleccionar un cliente al azar del estudio cuyo estado civil sea “married” (casado).
  2. Evento 2 (\(E_2\)): Seleccionar un cliente al azar del estudio que haya adquirido la cuenta de ahorro.

4.2.1 Análisis de dependencia

A partir de la Tabla 6 obtenemos directamente las siguientes probabilidades:

\[ P(E_1) = \frac{1396}{2239}, \quad P(E_2) = \frac{1872}{2239}, \quad P(E_1 \cap E_2) = \frac{1157}{2239} .\]

Con esto, podemos evaluar las diferentes condiciones para determinar la independencia de \(E_1\) y \(E_2\).

Condición 1: \(P(A \cap B) = P(A) \cdot P(B)\)

\[ P(E_1 \cap E_2) = \frac{1157}{2239} \approx 0.517 \neq 0.521 \approx \frac{1396}{2239} \cdot \frac{1872}{2239} = P(E_1) \cdot P(E_2) \]

Condición 2: \(P(A | B) = P(A)\)

\[ P(E_1 | E_2) = \frac{P(E_1 \cap E_2)}{P(E_2)} = \frac{\frac{1157}{2239}}{\frac{1872}{2239}} = \frac{1157}{1872} \approx 0.618 \neq 0.623 \approx \frac{1396}{2239} = P(E_1) .\]

Condición 3: \(P(B | A) = P(B)\)

\[ P(E_2 | E_1) = \frac{P(E_2 \cap E_1)}{P(E_1)} = \frac{\frac{1157}{2239}}{\frac{1396}{2239}} = \frac{1157}{1396} \approx 0.829 \neq 0.846 \approx \frac{1872}{2239} = P(E_2) .\]

Ley de Bayes:

\[ P(E_2 | E_1) = \frac{P(E_1 | E_2) \cdot P(E_2)}{P(E_1 | E_2) \cdot P(E_2) + P(E_1 | E_2^c) \cdot P(E_2^c)} = \frac{\frac{1157}{1872} \cdot \frac{1872}{2239}}{\frac{1157}{1872} \cdot \frac{1872}{2239} + \frac{239}{367} \cdot \frac{367}{2239}} = \frac{1157}{1396} \]

Se puede concluir de estas condiciones que \(E_1\) y \(E_2\), hablando estrictamente, son dependientes ya que \(P(A \cap B) \neq P(E_1) \cdot P(E_2)\) y \(P(E_1 | E_2) \neq P(E_1)\). Sin embargo, cabe destacar que, aunque diferentes estas probabilidades, son extremadamente similares (e incluso iguales si se las redondea a los dos decimales).

Esto se puede interpretar como que la observación del estado civil de un encuestado y la observación de si adquirió la cuenta de ahorro, aunque sean eventos dependientes, se acercan mucho a ser independientes. Esto tiene sentido en relación a la Figura 7, donde se observa que las proporciones de estado civil entre los clientes que adquirieron la cuenta y los que no son parecidas.

5 Variables aleatorias

5.1 Variable discreta 1

Un caso de ejemplo para esta variable es el siguiente:

Se propone un siguiente estudio donde se reutilizan los datos de los clientes de este estudio. En particular, se seleccionan en dicho estudio a las personas que hayan sido contactadas durante la presente campaña no más de 2 veces. En esta situación, ¿cuál es la probabilidad de seleccionar exactamente 1500 personas del total (\(n = 2239\)) que cumplan con esta característica?

En este contexto, definimos la siguiente variable aleatoria discreta:

\(X_1\): Número de personas del conjunto de 2239 que han sido contactadas a lo mucho 2 veces durante la presente campaña.

Debido a la manera en la que está definida, esta variable sigue el modelo binomial

\[ X_1 \sim B(n, p) ,\]

donde:

  • \(n = 2239\) es la cantidad de personas en el estudio.
  • \(p = P(\text{campana} \leq 2)\) es la probabilidad de que una persona del estudio escogida al azar hay sido contactada no más de 2 veces durante la presente campaña.

5.1.1 Gráficos y propiedades

A partir de la definición de \(X_1\), se deducen las siguientes probabilidades:

  • \(P(X_1 = 0)\): Probabilidad de que ningún cliente del conjunto de 2239 del estudio haya sido contactado a lo mucho 2 veces en la presente campaña.
  • \(P(X_1 = 1)\): Probabilidad de que exactamente 1 cliente del conjunto de 2239 del estudio haya sido contactado a lo mucho 2 veces en la presente campaña.
  • \(P(X_1 = 2239)\): Probabilidad de que todos los clientes del conjunto de 2239 del estudio hayan sido contactados a lo mucho 2 veces en la presente campaña.

La gráfica de la distribución es la siguiente:

Figura 14: Distribución de probabilidad de \(X_1\)

No obstante, la forma de la distribución se puede apreciar mejor si se grafica la parte central:

Figura 15: Distribución de probabilidad de \(X_1\) (parte central)

Algunas propiedades de esta distribución teórica son:

  • \(\operatorname{E}(X_1) = 1481\) (valor esperado).
  • \(\operatorname{V}(X_1) = 501.38\) (varianza).
  • \(\operatorname{SD}(X_1) = 22.39\) (desviación estándar).
  • \(\operatorname{CV}(X_1) = 0.02\) (coeficiente de variación).

5.1.2 Aplicaciones

La pregunta

¿Cuál es la probabilidad de seleccionar exactamente 1500 personas del total (\(n = 2239\)) que hayan sido contactadas a lo mucho 2 veces durante la presente campaña?

se puede responder mediante la probabilidad

\[ P(X_1 = 1500) = 0.01 .\]

En otras palabras, existe un 1% de probabilidad de seleccionar exactamente 1500 clientes que hayan sido contactados no más de 2 veces durante la presente campaña.

Esta probabilidad es un valor muy bajo, y esto tiene sentido. Aunque 1500 está relativamente cerca al valor esperado de \(X_1\) (\(1481\)), es necesario tomar en cuenta que el tamaño de la muestra (\(2239\)) es amplio, por lo que la probabilidad de que el número de clientes seleccionados con una propiedad deseada sea una cantidad exacta siempre será baja, sin importar dicha cantidad deseada.

En este sentido, una pregunta más interesante podría ser

¿Cuál es la probabilidad de que entre 1300 a 1500 personas del total de \(n = 2239\) hayan sido contactadas a lo mucho 2 veces durante la presente campaña?

Esta pregunta se puede responder mediante la probabilidad

\[ P(1300 \leq X_1 \leq 1500) = P(X_1 \leq 1500) - P(X_1 \leq 1299) = 0.81 .\]

En otras palabras, existe un 81% de probabilidad de seleccionar entre 1300 y 1500 clientes que hayan sido contactados no más de 2 veces durante la presente campaña. Tiene sentido que esta probabilidad sea tan alta, puesto que el rango entre \(1300\) y \(1500\) contiene a la media.

5.2 Variable discreta 2

df_adq <- df %>% filter(adq_ahorro == 1)

Supongamos ahora el siguiente caso de ejemplo:

Luego del estudio actual, se busca realizar un estudio subsiguiente. Sin embargo, se quiere analizar a un subconjunto de solamente \(1000\) personas del estudio actual, y este subconjunto se tomará de quienes hayan adquirido la cuenta de ahorro. ¿Cuál es la probabilidad de que, de esta muestra aleatoria, al menos \(45\) tengan edad mayor o igual a \(60\) años?

En este contexto, definimos la siguiente variable aleatoria discreta:

\(X_2\): Número de personas del subconjunto de \(1000\) seleccionado del total de \(1872\) (quienes adquirieron la cuenta de ahorro) que tienen al menos \(60\) años.

Debido a cómo está definida, esta variable sigue el modelo hipergeométrico

\[ X_2 \sim H(N, n, k) ,\]

donde:

  • \(N = 1872\) es la cantidad de personas del estudio actual que adquirieron la cuenta de ahorro.
  • \(n = 1000\) es el tamaño del subconjunto escogido al azar.
  • \(k = 80\) es la cantidad de personas del estudio actual que adquirieron la cuenta de ahorro y tienen al menos 60 años.

5.2.1 Gráficos y propiedades

A partir de la definición de \(X_2\), se deducen las siguientes probabilidades:

  • \(P(X_2 = 0)\): Probabilidad de que ningún cliente del subconjunto de \(1000\) tenga al menos 60 años.
  • \(P(X_2 = 1)\): Probabilidad de que exactamente 1 cliente del subconjunto de \(1000\) tenga al menos 60 años.
  • \(P(X_2 = 1000)\): Probabilidad de que todos los clientes del subconjunto de \(1000\) tengan al menos 60 años.

La gráfica de la distribución es la siguiente:

Figura 16: Distribución de probabilidad de \(X_2\)

La forma de la distribución se puede apreciar mejor si se grafica la parte central:

Figura 17: Distribución de probabilidad de \(X_2\) (parte central)

Algunas propiedades de esta distribución teórica son:

  • \(\operatorname{E}(X_2) = 42.74\) (valor esperado).
  • \(\operatorname{V}(X_2) = 19.07\) (varianza).
  • \(\operatorname{SD}(X_2) = 4.37\) (desviación estándar).
  • \(\operatorname{CV}(X_2) = 0.1\) (coeficiente de variación).

5.2.2 Aplicaciones

La pregunta

¿Cuál es la probabilidad de que, de una muestra aleatoria de \(1000\) personas de quienes adquirieron la cuenta de ahorro en el estudio actual, al menos \(45\) tengan edad mayor o igual a \(60\) años?

se puede responder mediante la probabilidad

\[ P(X_2 \geq 45) = 0.34 .\]

En otras palabras, existe un 34% de probabilidad de que, de un subconjunto aleatorio de \(1000\) de entre el total de \(2239\), al menos \(45\) personas tengan \(60\) años o más.

Una pregunta que usa la función de probabilidad en lugar de la acumulada es la siguiente:

¿Cuál es la probabilidad de que, de una muestra aleatoria de \(1000\) personas de quienes adquirieron la cuenta de ahorro en el estudio actual, exactamente \(45\) tengan edad mayor o igual a \(60\) años?

Esta pregunta se puede responder mediante la probabilidad

\[ P(X_2 = 45) = 0.08 .\]

En otras palabras, existe un 8% de probabilidad de que, de un subconjunto aleatorio de \(1000\) de entre el total de \(1872\) que adquirieron la cuenta, exactamente \(45\) personas tengan 60 años o más.

5.3 Variable discreta 3

Supongamos la siguiente situación:

Un estudio subsiguiente quiere saber si no realizar contactos telefónicos con las personas es viable, ya que podría ahorrar recursos humanos. En este sentido, ¿cuál es la probabilidad de que tome exactamente 10 selecciones de clientes al azar de entre quienes no hayan sido contactados para hallar uno que no adquiera la cuenta de ahorro?

En este contexto, definimos la siguiente variable aleatoria discreta:

\(X_3\): Cantidad de selecciones aleatorias (sin repetición) del conjunto de 1838 personas que no fueron contactadas (pdias == -1) del presente estudio hasta seleccionar una que no haya adquirido la cuenta de ahorro.

Esta variable, por su definición, sigue el modelo probabilístico

\[ X_3 \sim \operatorname{Geom}(p) ,\]

donde \(p = 0.16\), la probabilidad de éxito, es igual a la probabilidad empírica de seleccionar al azar un cliente no contactado previamente (es decir, con pdias == -1) que no haya adquirido la cuenta de ahorro.

5.3.1 Gráficos y propiedades

A partir de la definición de \(X_3\), se deducen las siguientes probabilidades:

  • \(P(X_3 = 0)\): Probabilidad de hacer 0 selecciones de entre los clientes no contactados hasta seleccionar un cliente que no adquirido la cuenta de ahorro.
  • \(P(X_3 = 1)\): Probabilidad de hacer una selección de entre los clientes no contactados hasta seleccionar un cliente que no adquirido la cuenta de ahorro.
  • \(P(X_3 = 2)\): Probabilidad de hacer dos selecciones de entre los clientes no contactados hasta seleccionar un cliente que no adquirido la cuenta de ahorro.

La gráfica de la distribución es la siguiente:

Figura 18: Distribución de probabilidad de \(X_3\)

La parte central de la distribución se ve de la siguiente manera:

Figura 19: Distribución de probabilidad de \(X_3\) (parte central)

Algunas propiedades de esta distribución teórica son:

  • \(\operatorname{E}(X_3) = 6.11\) (valor esperado).
  • \(\operatorname{V}(X_3) = 31.18\) (varianza).
  • \(\operatorname{SD}(X_3) = 5.58\) (desviación estándar).
  • \(\operatorname{CV}(X_3) = 0.91\) (coeficiente de variación).

5.3.2 Aplicaciones

La pregunta formulada al inicio,

¿Cuál es la probabilidad de que tome exactamente 10 selecciones de clientes al azar de entre quienes no hayan sido contactados para hallar uno que no adquiera la cuenta de ahorro?

se puede responder mediante la probabilidad

\[ P(X_3 = 10) = 0.03 .\]

Esto es, existe un 3% de probabilidad de que tome exactamente 10 selecciones de clientes al azar (nuevamente, de entre quienes no hayan sido contactados) para finalmente hallar uno que no adquiera la cuenta de ahorro.

Otra pregunta, quizá más informativa, que se puede plantear es la siguiente:

¿Cuál es la probabilidad de que tome más de 10 selecciones de clientes al azar de entre quienes no hayan sido contactados para hallar uno que no adquiera la cuenta de ahorro?

La respuesta a esta pregunta es

\[ P(X_3 > 10) = 0.14 .\]

Esto quiere decir que existe solo un 14% de probabilidad de que tome más de 10 selecciones de entre los clientes no contactados en encontrar a alguien que no adquiera la cuenta de ahorro. Aunque, en general, la probabilidad de que un cliente no contactado adquiera la cuenta es relativamente alta, esto indica que más de 10 clientes no contactados seguidos que sí adquieran la cuenta no es tan probable.

5.4 Variable continua

La variable continua que analizaremos será la siguiente:

\(X_4\): Balance de una persona seleccionada al azar de las \(1872\) que adquirieron la cuenta de ahorro en el estudio.

De esta manera, definimos las siguiente probabilidad:

  • \(P(X_4 \leq b)\): Probabilidad de que el balance de una persona seleccionada al azar de entre aquellas que adquirieron la cuenta de ahorro sea menor o igual a \(b\).
  • \(P(X_4 \geq a)\): Probabilidad de que el balance de una persona seleccionada al azar de entre aquellas que adquirieron la cuenta de ahorro sea mayor o igual a \(a\).
  • \(P(a \leq X_4 \leq b)\): Probabilidad de que el balance de una persona seleccionada al azar de entre aquellas que adquirieron la cuenta de ahorro se encuentre entre \(a\) y \(b\) euros.

En general, \(X_4\) no sigue alguna distribución de probabilidad conocida:

Figura 20: Distribución de probabilidad de \(X_4\)

Aunque la Figura 20 muestra una apariencia posiblemente exponencial, se puede comprobar numéricamente que la condición \(\operatorname{E}(X_4) = \operatorname{SD}(X_4)\), de una distribución exponencial, no se cumple por un gran margen:

mean(df_adq$balance)
[1] 1555.609
sd(df_adq$balance)
[1] 3281.318

Sin embargo, un modelo exponencial se ajusta algo mejor si nos enfocamos en los datos por debajo de cierto valor. Se muestra a continuación la distribución de probabilidad únicamente para los balances por debajo de 6000 euros y una curva de distribución exponencial generada con tasa \(\beta\) igual a la media de estos balances filtrados:

Figura 21: Distribución de probabilidad de \(X_4\) (balances < 6000)

Cabe destacar que este cambio, de todas formas, preserva el 100% de los balances originales.

Considerando a estos balances, su media y desviación estándar son, respectivamente, los siguientes:

mean(df_adq_filt$balance)
[1] 965.2635
sd(df_adq_filt$balance)
[1] 1261.765

Siguen sin ser exactamente iguales, pero ahora el error relativo es de 23.5% y la curva exponencial encaja algo mejor en la gráfica. El ajuste sigue sin estar muy cerca de ser exacto, pero está lo suficientemente cerca como para usarlo en cálculos que no requieran mayor precisión.

Solo por completitud, podemos comprobar que la curva de este modelo alternativo también encaja decentemente para los datos completos del balance:

Figura 22: Distribución de probabilidad de \(X_4\) (nuevo modelo)

No obstante, es necesario siempre tener en cuenta que este modelo, en general, encaja mejor en los balances menores a \(6000\) euros.

5.4.1 Aplicaciones

Supongamos que \(X_4\) sigue la distribución

\[ X_4 \sim \operatorname{Exp}(\beta) ,\]

donde \(\beta\), la tasa, es igual a la media empírica de los balances menores a \(6000\) euros.

Ahora, supongamos que queremos saber lo siguiente:

¿Cuál es la probabilidad de que una persona seleccionada al azar de entre las que adquirieron la cuenta de ahorro tenga un balance mayor o igual a \(2000\) euros?

Esta consulta se puede calcular por medio de la probabilidad

\[ P(X_4 \ge 2000) = 0.13 .\]

En otras palabras, una persona seleccionada al azar del estudio tiene solo un \(4\%\) de probabilidad de tener un balance de al menos 2000 euros. Esto es un indicador de que la gran mayoría de clientes de la muestra no tienen balances más allá de los 2000 euros. A su vez, esto puede indicar que la muestra de clientes con balance mayor o igual a 2000 euros no es muy representativa, por lo que posibles inferencias sobre este grupo podrían estar sesgadas por falta de información.

Otra posible consulta podría ser la siguiente:

¿Cuál es la probabilidad de que una persona seleccionada al azar de entre las que adquirieron la cuenta de ahorro tenga un balance entre \(500\) y \(1000\) euros?

Esta pregunta corresponde a la probabilidad

\[ P(500 \leq X_4 \leq 1000) = P(X_4 \leq 1000) - P(X_4 < 500) = 0.24 .\]

Es decir, existe un \(24\%\) de probabilidad de que una persona seleccionada al azar de entre quienes adquirieron la cuenta de ahorro tenga un balance entre \(1000\) y \(500\) euros. Considerando el rango de los balances, es una probabilidad relativamente elevada. Esto puede ser un indicador de que, al menos entre quienes adquirieron la cuenta, es relativamente frecuente tener un balance en este rango.

6 Conclusiones

Considerando los análisis realizados en este informe, formulamos las siguientes conclusiones en base a cada uno de nuestros objetivos:

  1. Los balances de quienes adquirieron la cuenta de ahorro son, en general, superiores a los de quienes no la adquirieron. Además, se observa una proporción ligeramente mayor de personas con historial de mora que aceptan la cuenta de ahorro en comparación con aquellas sin mora.
  2. La mayoría de los encuestados con edades atípicas (mayores de 70 años) adquirieron la cuenta de ahorro, pero, en general, las distribuciones de edad entre ambos grupos presentan medias y medianas similares. Asimismo, entre quienes adquirieron la cuenta se observa una proporción ligeramente menor de individuos casados.
  3. En términos generales, las personas con nivel educativo de secundaria son ligeramente más propensas a adquirir una cuenta de ahorro. Por otro lado, el nivel educativo de primaria presenta la menor tasa de adquisición de cuentas de ahorro.
  4. El número promedio de contactos no varía significativamente entre quienes adquieren la cuenta y quienes no. Sin embargo, en algunos casos, un mayor número de contactos parece estar asociado con una mayor probabilidad de adquisición. Además, la mayoría de los encuestados tomaron la decisión de aceptar o rechazar la cuenta en el primer contacto, lo que sugiere la importancia de la primera impresión del banco en la decisión del cliente.
  5. Las personas que adquieren la cuenta de ahorro tienden a hacerlo en un período ligeramente menor tras el último contacto en comparación con quienes no la adquieren. Hay una cantidad considerable de clientes que adquirieron una cuenta sin haber sido contactados, por lo que sería apropiado investigar sobre las posibles formas en las que estos clientes pudieron haberse enterado de la cuenta de ahorro sin un contacto directo del banco.